»Generative KI hat uns nicht überrascht.«

von Bernd Beckert /

Im Fraunhofer ISI leite ich aktuell ein Projekt, bei dem es um die technische und konzeptionelle Abgrenzung von Forschungsfeldern der Künstlichen Intelligenz geht. Warum? Die KI-Forschung besteht aus sehr vielen und zum Teil inkompatiblen Teilbereichen, zum Beispiel Computer Vision, Natural Language Processing oder Decision Support Systems. Werden einzelne Teilbereiche kombiniert, kann das einen Innovationsschub geben. Doch welche sind am besten geeignet? Um die Forschungsplanung zu unterstützen, hilft spezifisches Wissen über die aktuell wichtigsten wissenschaftlichen Fragen in den KI-Teilbereichen.

Hier wollen wir mit unserer Expertise unterstützen: In unserer aktuellen Studie werten wir bibliometrische Analysen aus und befragen Expert:innen, um die KI-Landschaft zu charakterisieren und aktuelle Trends zu bestimmen. Die Studie erscheint im April 2024 als Working Paper. 

Forschungsplanung ist aber auch auf Zukunftswissen angewiesen. Hier gibt es eine ganze Reihe von Foresight-Methoden, die immer besser werden, weil sie auf großen Datenmengen basieren und KI-Tools einsetzen. KI-gestütztes Foresight ist aber alles andere als trivial: Dr. Philine Warnke ist Foresight-Expertin am Fraunhofer ISI und hat mir das Geheimnis einer Technikvorausschau verraten, mit der sie Trends erkennen kann, bevor andere sie sehen. Ergebnisse auf Knopfdruck gibt es aber nicht.

Viele haben generative künstliche Intelligenz unterschätzt – bis ChatGPT kam. Selbst Expert:innen haben die dynamische Entwicklung, die es in den vergangenen Jahren in diesem KI-Forschungsbereich gab, nicht gesehen: Noch 2021, also ein Jahr vor der Veröffentlichung von ChatGPT, strichen Liu, Shapria und Yue in einer groß angelegten biliometrischen Studie die Themen »generative KI« und »Chatbots« von der Liste relevanter KI-Forschungsfelder, weil sie nicht genügend wissenschaftliche Publikationen dazu fanden. Ihr hingegen habt bereits 2019 in eurer Studie »100 radical innovation breakthroughs for the future« für die Europäische Kommission erkannt, dass Spracherkennung, Chatbots und generative KI wichtige KI-Themen werden. Was habt ihr anderes gemacht, wie seid ihr vorgegangen?

Ja, der Boom der generativen KI hat uns nicht überrascht. Die enorme wirtschaftliche Dynamik und die gesellschaftliche Debatte um KI, die OpenAI mit der Veröffentlichung von ChatGPT ausgelöst hat, konnte natürlich niemand voraussehen. Aber wir sind schon ein bisschen stolz darauf, dass wir den Trend schon 2019 gesehen haben. KI besitzt sehr viele Facetten, und Durchbrüche können aus allen KI-Teilbereichen kommen. Aber der aktuelle Boom geht aber ganz klar von der generativen KI aus.

Was wir gemacht haben, ist im Grunde kein Geheimnis: Es ist eine Variante der Methode »Weak Signals Scanning«, die wir in verschiedenen Foresight-Projekten immer wieder einsetzen. Allerdings haben wir für das EU-Projekt RIBRI eine entscheidende spezifische Anpassung vorgenommen.

Grundsätzlich ist es so, dass wir beim »Weak Signals Scanning« nicht auf das schauen, was aktuell oder in der Vergangenheit schon publiziert, zitiert oder patentiert wurde. Stattdessen fragen wir: Was kommt neu auf im Diskurs? Das können auch kleine Dinge sein, Themen, mit denen sich zunächst nur wenige befassen, wissenschaftliche Nischen. Dann stellen wir sogenannte »Seed of Change«-Hypothesen für Bereiche auf, in denen sich gerade etwas Neues entwickelt. Hier arbeiten wir qualitativ und interviewen Lead User und andere Expert:innen, die wir sonst nicht im Fokus haben. Wir gehen also bewusst an den Rand des Geschehens und befragen Personen, die außerhalb des wissenschaftlichen Mainstreams agieren.

Die entscheidende Anpassung der Methode, die wir für RIBRI gemacht haben: Wir haben die Identifizierung von Weak Signals mit Hilfe von KI-Tools automatisiert. Damit konnten wir einen viel größeren Datenpool analysieren.

Das Tool, das unsere Forschungspartner:innen vom Institutul de Prospectiva in Bukarest entwickelt haben, ist ein Machine-Learning-Tool, das sie mit Supervised-Learning-Verfahren darauf trainiert haben, Weak Signals in Science News Blogs im Internet automatisch zu erkennen. Datenbasis für das Training waren mehr als 200 internationale Wissenschafts- und Technologie-Blogs und RSS-Feeds. In solchen Quellen mit unstrukturierten Daten sind neue Themen sehr viel früher in der Diskussion als in wissenschaftlichen Publikationen, die für klassische bibliometrische Studien ausgewertet werden.

Im Anschluss an das Training hat das Projektteam das künstliche neuronale Netz dann mit Hundertausenden neuer Einträge aus diesen Quellen gefüttert. Das Tool hat dann erst einmal 90 Prozent der Artikel als Mainstream, also weithin bekannte Trends, klassifiziert und aussortiert. Diese aussortierten Trends haben wir uns gar nicht weiter angeschaut, die restlichen 10 Prozent haben uns aber sehr interessiert. Diese haben wir genauer analysiert und zu Themenclustern zusammengefasst. Bei der Erstellung der Cluster hat uns ein anderes KI-Tool unterstützt, denn es ging immer noch um eine große Zahl von Artikeln.

 

Das hört sich spannend an. Dann musstet ihr am Ende nur auf den Knopf drücken, um zu den 100 Zukunfts-Innovationen zu kommen?

Die KI-Tools waren eine große Hilfe, aber nicht alles konnten wir automatisieren. Wir mussten am Ende jede einzelne der erzeugten Themen-»Wolken« händisch aufarbeiten, denn das KI-Tool hat natürlich kein wirkliches Verständnis für die Themen, es hat uns nur einen selektierten Artikel-Satz für jedes Thema geliefert.

Für den Bericht war aber eine Beschreibung und Einordnung wichtig, die wir natürlich selber gemacht haben. Dafür haben wir die KI-Ergebnisse in Gesprächen mit Expert:innen und in einer Delphi-Befragung von echten Menschen einordnen und verifizieren lassen. Das ist ganz entscheidend, weil automatisierte Verfahren und menschliche Beurteilung jeweils ihre Stärken und Schwächen haben und sich gegenseitig ergänzen.

 

Das hört sich doch wieder aufwändig an. Wäre es denn prinzipiell möglich, mit dieser Methode Themen zu identifizieren, die sich heute, im Jahr 2024 abzeichnen, und die dann in den nächsten drei bis fünf Jahren groß werden?

Natürlich, das würde funktionieren. Inzwischen haben wir unsere eigenen KI-Tools und benutzen Algorithmen, die zum Beispiel aus Nachrichtentexten bestimmte Themen extrahieren können. Diese Methode heißt »Natural Language Programming-basiertes Topic Modelling«, sie funktioniert sowohl mit strukturierten Daten aus Datenbanken als auch mit unstrukturierten Daten, beispielsweise aus Blogs und digitalen Zeitungsartikeln. Wir würden wahrscheinlich auch wieder auf unseren damaligen Partner in Bukarest zurückgreifen, dessen neuronales Netz inzwischen sicher noch besser darin geworden ist, das Neue in solchen Quellen zu entdecken.

Man darf aber nicht vergessen, dass wir in dem Projekt für die EU fast zwei Jahre geforscht, trainiert und analysiert haben. So ganz auf Knopfdruck wird es trotz aller KI-Tools auch in Zukunft nicht gehen.

Letzte Änderung: